Nieuwe tool kan teksten van AI en mensen beter uit elkaar houden

Onderzoekers hebben een nieuwe AI-detectietool ontwikkeld die naar verluidt stukken beter werkt dan programma’s als GPTZero en Ghostbuster.
Met een nauwkeurigheidspercentage van 99,9 procent voorkomt deze tool zogenoemde ‘foutpositieve’ resultaten vrijwel compleet, aldus de onderzoekers.
Eerder werden AI-detectietools uit de roulatie genomen, omdat studenten onterecht werden beschuldigd van het gebruik van kunstmatige intelligentie voor essays en scripties.
Lees ook: Google geeft browser Chrome nieuwe AI-functie waarmee je tabbladen kunt ordenen: dat werkt zo

Het nauwkeurig detecteren van teksten die gegenereerd zijn door software op basis van artificial intelligence (AI) is tot nog toe een grote uitdaging. Onderzoekers beweren echter een nieuwe, nauwkeurige tool en methode te hebben gevonden voor het betrappen van AI-teksten.

De tool, genaamd Binoculars, zou beter presteren dan AI-detectiesoftware als GPTZero en Ghostbuster.

In een maandag gepubliceerd artikel geven acht onderzoekers, het merendeel verbonden aan de Universiteit van Maryland in de Verenigde Staten, aan dat Binoculars is getest op grote datasets. Daarbij is gekeken naar nieuwsberichten, fictie en scripties.

De tool detecteerde meer dan 90 procent van teksten die gegenereerd waren door AI-tools. Het nauwkeurigheidspercentage was daarbij 99,9 procent. Met andere woorden: het aantal ‘foutpositieve’ resultaten, waarbij een werk onterecht wordt bestempeld als gecreëerd door AI, lag op maar 0,01 procent.

Gebruikt student wel of niet AI-tool?

Nu generatieve AI-tools zoals ChatGPT enorm populair worden, groeien de zorgen over studenten die AI-teksten als eigen academisch werk presenteren. Maar tegelijkertijd zijn veel studenten ten onrechte beschuldigd van het gebruik van kunstmatige intelligentie, op basis van eerdere AI-detectietools.

De onderzoekers van Binoculars stellen een veel lager foutpositief percentage te halen met hun nieuwe tool. Het team wil nu stappen zetten om Binoculars om te zetten in een bruikbaarder product dat mogelijk kan worden gelicenseerd.

"De vroege release van slechte producten deed mensen geloven dat AI-detectie nooit goed genoeg kon presteren om nuttig te zijn", zegt betrokken onderzoeker Abhimanyu Hans tegen Business Insider. "Maar wetenschappelijk onderzoek naar AI-detectie heeft enorme sprongen gemaakt in de afgelopen zes maanden."

De onderzoekers trainden Binoculars met open-source AI-modellen zoals Llama van Meta en Falcon van het emiraat Abu Dhabi. Ze testte het uit op data die voor de helft uit menselijke teksten bestond en voor de andere helft ChatGPT-teksten bevatte.

Binoculars vereist geen 'fine tuning' om de tool op het gewenste niveau te laten presteren. Volgens de onderzoekers is de tool "niet bedoeld of getraind om specifiek ChatGPT te detecteren" en daarom "modelagnostisch", iets dat "cruciaal is voor sociale mediamoderatie en platformintegriteit".

Hoe AI-detectietool Binoculars werkt

De onderzoekers geven in het artikel aan dat hun model "volledig in een zero-shot setting werkt". In machine learning verwijst zero-shot naar de reactie van een model op woorden of objecten waarop het niet is getraind.

"Vanwege de zero-shot aard van onze detector, kan deze tool met hoge nauwkeurigheid meerdere verschillende Large Language Models [de taalmodellen achter chatbots als ChatGPT, red.] detecteren – iets dat geen van de bestaande tools kan", staat er in het artikel.

Binoculars werkt door de 'perplexiteit' van een tekst te beoordelen. Perplexiteit verwijst naar hoezeer de tool verrast is door een voorspelling, zoals het volgende woord in een zin. Dus, hoe minder verrast Binoculars is door een bepaalde tekst, des te waarschijnlijker het is dat de tekst van een machine komt.

De onderzoekers testten Binoculars ook op een dataset van academische teksten van studenten die niet het Engels als hun moedertaal hadden. Dit is vaak lastiger voor AI-detectoren, die dergelijke teksten eerder als computergegenereerd aanmerken. Binoculars had een nauwkeurigheidspercentage van 99,67 procent met dergelijke teksten.

Nieuwe detectietool kan teksten van AI en mensen beter uit elkaar houden, zeggen onderzoekers

Gebruikt student wel of niet AI-tool?

Hoe AI-detectietool Binoculars werkt

LEES OOK: Nederlanders verwachten dat AI vooral een positieve impact zal hebben, maar vertrouwen de overheid er niet mee

Meer

Polestar Spacetalk: hét event over ondernemerschap, innovatie en duurzaamheid op 1 mei

Meld je nu gratis aan!

Waarom geen bitcoin bezitten een slechte keuze is volgens experts

Bitcoin en de nieuwe digitale economie

Klantinzichten als superkracht om klanten beter te bedienen

Creating Connections

Gebruikt student wel of niet AI-tool?

Hoe AI-detectietool Binoculars werkt

LEES OOK: Nederlanders verwachten dat AI vooral een positieve impact zal hebben, maar vertrouwen de overheid er niet mee

BEKIJK OOK: De schimmel voor Brie sterft mogelijk uit, kunnen we het redden?

Nieuwsbrief BI Dagelijks

Meer

Polestar Spacetalk: hét event over ondernemerschap, innovatie en duurzaamheid op 1 mei

Waarom geen bitcoin bezitten een slechte keuze is volgens experts

Klantinzichten als superkracht om klanten beter te bedienen